การอนุมานทางสถิติถามว่า: "เมื่อมีข้อมูลนี้แล้ว พารามิเตอร์ที่แท้จริงที่เป็นไปได้มากที่สุดคืออะไร?" สไลด์นี้เชื่อมโยงคำถามนี้กับ การเพิ่มประสิทธิภาพเชิงเว้า. เราเปลี่ยนแนวคิดทางความน่าจะเป็นของความน่าจะเป็นให้กลายเป็นโปรแกรมที่มีโครงสร้าง โดยแสดงว่าภายใต้เงื่อนไขของความเว้าในลอการิธึม (log-concavity) การหาค่าประมาณที่ดีที่สุดจะเทียบเท่ากับการแก้ปัญหาการเพิ่มประสิทธิภาพเชิงเว้า
กรอบแนวคิดของความน่าจะเป็น
ฟังก์ชัน ความน่าจะเป็น คือการแจกแจงความน่าจะเป็น $p_x(y)$ ที่พิจารณาเป็นฟังก์ชันของพารามิเตอร์ $x$ เมื่อตัวอย่างที่สังเกตได้ $y$ ถูกกำหนดไว้ ในการประมาณค่า $x$ เราใช้ การประมาณค่าแบบสูงสุดของความน่าจะเป็น (ML): เลือกค่าที่ทำให้ข้อมูลที่สังเกตได้มีความน่าจะเป็นสูงสุด
$$\hat{x}_{ml} = \text{argmax}_x p_x(y) = \text{argmax}_x l(x)$$
เพื่อความรวดเร็วในการคำนวณ เราใช้ ฟังก์ชันความน่าจะเป็นลอการิธึม, $l(x) = \log p_x(y)$ เนื่องจากลอการิธึมเป็นฟังก์ชันที่เพิ่มขึ้นอย่างต่อเนื่อง มันจะคงตำแหน่งของค่าสูงสุดไว้ ในขณะเดียวกันก็แปลงผลคูณ (จากข้อมูลที่เป็นอิสระต่อกัน) เป็นผลรวมที่จัดการได้ง่าย
โปรแกรมการเพิ่มประสิทธิภาพแบบ MLE (7.1)
เราจัดรูปแบบการประมาณเป็นโปรแกรมเชิงคณิตศาสตร์:
โปรแกรมนี้คือ ปัญหาการเพิ่มประสิทธิภาพเชิงเว้า หาก:
- ฟังก์ชันความน่าจะเป็นลอการิธึม $l$ เป็น เว้า สำหรับแต่ละค่าของ $y$
- เซตที่เป็นไปได้ $C$ (ข้อมูลเบื้องต้น) ถูกอธิบายโดยข้อจำกัดแบบสมการเชิงเส้นและข้อจำกัดเชิงเว้าแบบไม่เท่ากัน
การรวมข้อจำกัดและข้อมูลเบื้องต้น
การประมาณค่าแบบ ML ต้องกำหนดใหม่ว่า $p_x(y) = 0$ เมื่อ $x \notin C$ เพื่อจำกัดข้อจำกัดทางกายภาพหรือข้อมูลเบื้องต้นอย่างชัดเจน ในพื้นที่การเพิ่มประสิทธิภาพ หมายความว่าฟังก์ชันความน่าจะเป็นลอการิธึมจะถูกกำหนดค่าเป็น $-\infty$ สำหรับพารามิเตอร์ $x$ ที่ขัดแย้งกับข้อจำกัดเหล่านั้น ซึ่งสร้างกำแพงที่ไม่สามารถผ่านได้สำหรับตัวดำเนินการเพิ่มประสิทธิภาพ